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(57) Abstract: A method for converting 
a voice signal from a source speaker into 
a converted voice signal with acoustic 
characteristics similar to those of a target 
speaker includes the steps of determining 

(1) at least one function for transforming 
source speaker acoustic characteristics into 
acoustic characteristics similar to those of 
the target speaker using target and source 
speaker voice samples; and transforming 
acoustic characteristics of the source speaker 
voice signal to be converted by applying 
said transformation function(s). The method 
is characterised in that said transformation 

(2) includes the step (44) of applying only 
a predetermined portion of at least one 
transformation function to said signal to be 
converted. 

(57) Abrege : Ce procede de conversion 
d'un signal vocal prononce par un locuteur 
source en un signal vocal converti dont les 
caracteristiques acoustiques ressemblent a 
celles d'un locuteur cible, comprend : la 
determination (1) d'au moins une fonction de 
transformation de caracteristiques acoustiques 
du locuteur source en caracteristiques 
acoustiques proches de celles du locuteur 
cible, a partir d'echantillons vocaux des 
locuteurs source et cible ; et la transformation 
de caracteristiques acoustiques du signal 
vocal a convertir du locuteur source, par 
l'application de ladite au moins une fonction 



de transformation. II est caracterise en 
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ce que ladite transformation (2) comprend une etape (44) d'application uniquement d'une partie determined d'au moins une fonction 
de transformation sur ledit signal a convertir. 
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Procede et svsteme de conversion rapides d'un signal vocal. 

La presente invention concerne un procede de conversion d'un signal 
vocal prononce par un locuteur source en un signal vocal convert! dont les carac- 
teristiques acoustiques ressemblent a celles d'un locuteur cible ainsi qu'un sys- 
teme mettant en oeuvre un tel procede. 
5 Dans le cadre duplications de conversion de voix, telles que les ser- 

vices vocaux, les applications de dialogue oral homme-machine ou encore la 
synthese vocale de textes, le rendu auditif est primordial et, pour obtenir une qua- 
lite acceptable, il convient de bien maTtriser les parametres lies a la prosodie des 
signaux vocaux. 

10 De maniere classique, les principaux parametres acoustiques ou pro- 

sodiques modifies lors de precedes de conversion de voix sont les parametres 
relatifs a I'enveloppe spectrale et/ou pour les sons voises faisant intervenir la vi- 
bration des cordes vocales, les parametres relatifs a une structure periodique, 
soit la periode fondamentale dont Pinverse est appele frequence fondamentale 

15 ou « pitch ». 

Les precedes de conversion de voix classiques comprennent en gene- 
ral la determination d'au moins une fonction de transformation de caracteristiques 
acoustiques du locuteur source en caracteristiques acoustiques proches de cel- 
les du locuteur cible, et la transformation d'un signal vocal a convertir par 

20 I'application de cette ou ces fonctions. 

Cette transformation est une operation longue et couteuse en temps 

• de calcul. 

En effet, de telles fonctions de transformation sont classiquement 
considerees comme des combinaisons lineaires d'un nombre fini important 
25 d'elements de transformation appliques a des elements representatifs du signal 
vocal a convertir. 

Le but de Pinvention est de resoudre ces problemes en definissant un 
procede et un systeme de conversion d'un signal vocal rapide et de bonne quali- 
te. 

30 A cet effet, la presente invention a pour objet un procede de conver- 

sion d'un signal vocal prononce par un locuteur source en un signal vocal conver- 
ti dont les caracteristiques acoustiques ressemblent a celles d ! un locuteur cible, 
comprenant : 
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- la determination d'au moins une fonction de transformation de carac- 
teristiques acoustiques du locuteur source en caracteristiques acoustiques pro- 
ches de celles du locuteur cible, a partir d'echantillons vocaux des locuteurs 
source et cible ; et 

5 - la transformation de caracteristiques acoustiques du signal vocal a 

convertir du locuteur source, par I'application de ladite au moins une fonction de 
transformation, 

caracterise en ce que ladite transformation comprend une etape 
d'application uniquement d'une partie determinee d'au moins une fonction de 
1 0 transformation sur ledit signal a convertir. 

Le procede de I'invention permet ainsi de diminuer le temps de calcul 
necessaire a la mise en ceuvre, grace a I'application uniquement d'une partie de- 
terminee d'au moins une fonction de transformation. 

Suivant d'autres caracteristiques de ['invention : 
15 - au moins la determination d'une fonction de transformation com- 

prend une etape de determination d'un modele representant de maniere ponde- 
ree des caracteristiques acoustiques communes des echantillons vocaux du locu- 
teur cible et du locuteur source sur un ensemble fini de composantes de modele, 
et ladite transformation comprend : 
20 - une etape d'analyse du signal vocal a convertir, regroupe en fra- 

mes pour obtenir, pour chaque trame d'echantillons des informations relatives 
aux caracteristiques acoustiques ; 

- une etape de determination d'un indice de correspondance entre 
les trames a convertir et chaque composante dudit modele ; et 
25 - une etape de selection d'une partie determinee desdites compo- 

santes dudit modele en fonction desdits indices de correspondance, 

ladite etape d'application uniquement d'une partie determinee d'au 
moins une fonction de transformation comprenant Tapplication auxdites trames a 
convertir de la seule partie de ladite au moins une fonction de transformation cor- 
30 respondant auxdites composantes du modele selectionnees ; 

- il comporte en outre une etape de normalisation de chacun desdits 
indices de correspondance des composantes selectionnees par rapport a la 
somme de tous les indices de correspondance des composantes selectionnees ; 
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- il comporte en outre une etape de memorisation desdits indices de 
correspondance et de ladite partie determinee desdites composantes de modele, 
realisee avant ladite etape de transformation, laquelle est retardee dans le 
temps ; 

5 - ladite determination de ladite au moins une fonction de transforma- 

tion comprend : 

- une etape d'analyse des echantillons vocaux des locuteurs source 
et cible, regroupes en trame pour obtenir des caracteristiques acoustiques pour 
chaque trame d'echantillons d'un locuteur ; 

10 - une etape d'alignement temporel des caracteristiques acoustiques 

du locuteur source avec les caracteristiques acoustiques du locuteur cible, cette 
etape etant realisee avant ladite etape de determination d'un modele ; 

- ladite etape de determination d'un modele correspond a la determi- 
nation d'un modele de melange de densites de probabilites gaussiennes ; 

15 - ladite etape de determination d'un modele comprend : 

- une sous-etape de determination d'un modele correspondant a un 
melange de densites de probabilites gaussiennes, et 

- une sous-etape d'estimation des parametres du melange de densi- 
tes de probabilites gaussiennes a partir de I'estimation du maximum de vraisem- 

20 blance entre les caracteristiques acoustiques des echantillons des locuteurs 
source et cible et le modele ; 

- ladite determination d'au moins une fonction de transformation est 
realisee a partir d'un estimateur de la realisation des caracteristiques acoustiques 
du locuteur cible sachant les caracteristiques acoustiques du locuteur source ; 

25 - ledit estimateur est forme de I'esperance conditionnelle de la realisa- 

tion des caracteristiques acoustiques du locuteur cible sachant la realisation des 
caracteristiques acoustiques du locuteur source ; 

- il comporte en outre une etape de synthese permettant de former un 
signal vocal converti a partir desdites informations acoustiques transformees. 

30 L'invention a egalement pour objet un systeme de conversion d'un si- 

gnal vocal prononce par un locuteur source en un signal vocal converti dont les 
caracteristiques acoustiques ressemblent a celles d'un locuteur cible, compre- 
nant : 
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- des moyens de determination d'au moins une fonction de transforma- 
tion des caracteristiques acoustiques du locuteur source en caracteristiques 
acoustiques proches de celles du locuteur cible, a partir d'echantillons vocaux 
des locuteurs source et cible ; et 

5 - des moyens de transformation des caracteristiques acoustiques du 

signal vocal a convertir du locuteur source par ('application de ladite au moins 
une fonction de transformation, 

caracterise en ce que lesdits moyens de transformation sont adaptes 
pour I'application uniquement d'une partie determinee d'au moins une fonction de 
10 transformation sur ledit signal a convertir 

Selon d'autres caracteristiques du systeme : 

- lesdits moyens de determination sont adaptes pour la determination 
d'au moins une fonction de transformation a Paide d'un modele representant de 
maniere ponderee des caracteristiques acoustiques communes des echantillons 

1 5 vocaux des locuteurs source et cible sur un ensemble fini de composantes, et en 
ce qu'il comporte : 

- des moyens d'analyse dudit signal a convertir, regroupe en fra- 
mes, pour obtenir, pour chaque trame d'echantillons, des informations relatives 
aux caracteristiques acoustiques ; 

20 - des moyens de determination d'un indice de correspondance entre 

les trames a convertir et chaque composante dudit modele ; et 

- des moyens de selection d'une partie determinee desdites compo- 
santes dudit modele en fonction desdits indices de correspondance, 

lesdits moyens d'application etant adaptes pour appliquer uniquement 
25 une partie determinee de ladite au moins une fonction de transformation corres- 
pondent auxdites composantes du modele selectionnees. 

^invention sera mieux comprise a la lecture de la description qui va 
suivre, donnee uniquement a titre d'exemple et faite en se referant aux dessins 
annexes, sur lesquels : 
30 - les Figs. 1A et 1B represented un organigramme general du precede 

de ('invention ; et 

- la Fig. 2 represente un schema synoptique d'un systeme mettant en 
oeuvre le procede de 1'invention. 
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La conversion de voix consiste a modifier le signal vocal d'un locuteur 
de reference appele locuteur source, de telle sorte que le signal produit semble 
avoir ete prononce par un autre locuteur, nomme locuteur cible. 

Un tel procede comporte tout d'abord la determination de fonctions de 
5 transformation de caracteristiques acoustiques ou prosodiques, des signaux vo- 
caux du locuteur source en caracteristiques acoustiques proches de celles des 
signaux vocaux du locuteur cible, a partir d'echantillons vocaux prononces par le 
locuteur source et le locuteur cible. 

Plus particulierement, la determination 1 de fonctions de transforma- 
10 tion est realisee sur des bases de donnees d'echantillons vocaux correspondant 
a la realisation acoustique de merries sequences phonetiques, prononcees res- 
pectivement par les locuteurs source et cible. 

Cette determination est designee sur la figure 1A par la reference nu- 
merique generale 1 et est egalement couramment appelee « apprentissage ». 
15 Le procede comporte ensuite une transformation des caracteristiques 

acoustiques d'un signal vocal a convertir prononce par le locuteur source a I'aide 
de la ou des fonctions determinees precedemment. Cette transformation est de- 
signee par la reference numerique generale 2 sur la figure 1B. 

En fonction des modes de realisation, differentes caracteristiques 
20 acoustiques sont transformees telles que des caracteristiques d'enveloppe spec- 
trale et/ou de frequence fondamentale. 

Le procede debute par des etapes 4X et 4Y d'analyse d'echantillons 
vocaux prononces respectivement par les locuteurs source et cible. Ces etapes 
permettent de regrouper les echantillons par trame, afin d'obtenir pour chaque 
25 trame d'echantillons, des informations relatives a I'enveloppe spectrale et/ou des 
informations relatives a la frequence fondamentale. 

Dans le mode de realisation decrit, les etapes 4X et 4Y d'analyse sont 
fondees sur I'utilisation d'un modele de signal sonore sous la forme d'une somme 
d'un signal harmonique avec un signal de bruit selon un modele communement 
30 appele "HNM" (en anglais : Harmonic plus Noise Model). 

Le modele HNM comprend la moderation de chaque trame de signal 
vocal en une partie harmonique representant la composante periodique du si- 
gnal, constitute d'une somme de L sinusoTdes harmoniques d'amplitude A| et de 
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phase <|>i, et d'une partie bruitee representant le bruit de friction et la variation de 
I'excitation glottale. 

On peut ainsi ecrire : 

s(n)=h(n)+b(n) 

5 avec h(n)= ]^Ai(n)cos(<Kn)) 



i-i 

Le terme h(n) represente done rapproximation harmonique du signal 



s(n). 



En outre, le mode de realisation decrit est fonde sur une representa- 
tion de I'enveloppe spectrale par le cepstre discret. 

10 Les etapes 4X et 4Y comportent des sous-etapes 8X et 8Y d'estima- 

tion, pour chaque trame, de la frequence fondamentale, par exemple au moyen 
d'une methode d'auto correlation. 

Les sous-etapes 8X et 8Y sont chacune suivies d'une sous-etape 10X 
et 10Y d'analyse synchronisee de chaque trame sur sa frequence fondamentale, 

15 qui permet d'estimer les parametres de la partie harmonique ainsi que les para- 
metres du bruit du signal et notamment la frequence maximale de voisement. En 
variante, cette frequence peut etre fixee arbitrairement ou etre estimee par d'au- 
tres moyens connus. 

Dans le mode de realisation decrit, cette analyse synchronisee corres- 

20 pond a la determination des parametres des harmoniques par minimisation d'un 
critere de moindres carres ponderes entre le signal complet et sa decomposition 
harmonique correspondant dans le mode de realisation decrit, au signal de bruit 
estime. Le critere note E est egal a : 

E= 2w 2 (n)(s(n)-h(n)) 2 
n=-Ti 

25 Dans cette equation, w (n) est la fenetre d'analyse et T| est la periode 

fondamentale de la trame courante. 

Ainsi, la fenetre d'analyse est centree autour de la marque de la pe- 
riode fondamentale et a pour duree deux fois cette periode. 

En variante, ces analyses sont faites de maniere asynchrone avec un 
30 pas fixe d'analyse et une fenetre de taille fixe. 

Les etapes 4X et 4Y d'analyse comportent enfin des sous-etapes 12X 
et 12Y d'estimation des parametres de I'enveloppe spectrale des signaux en utili- 
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sant par exemple une methode de cepstre discret regularise et une transforma- 
tion en echelle de Bark pour reproduire le plus fidelement possible les proprietes 
de I'oreille humaine. 

Ainsi, les etapes 4X et 4Y d'analyse delivrent respectivement pour les 
5 echantillons vocaux prononces par les locuteurs source et cible, pour chaque 
trame de rang n d'echantillons des signaux de parole, un scalaire note F n repre- 
sentant la frequence fondamentale et un vecteur note c n comprenant des infor- 
mations d'enveloppe spectrale sous la forme d'une sequence de coefficients 
cepstraux. 

10 Le mode de calcul des coefficients cepstraux correspond a un mode 

operatoire connu de I'etat de la technique et, pour cette raison, ne sera pas decrit 
plus en detail. 

Le procede de Tinvention permet done de definir pour chaque trame n 
du locuteur source, un vecteur note x n de coefficients cepstraux c x (n) et la fre- 
15 quence fondamentale. 

De maniere similaire, le procede permet de definir pour chaque trame 
n de locuteur cible, un vecteur y n de coefficients cepstraux c y (n), ainsi que la fre- 
quence fondamentale. 

Les etapes 4X et 4Y sont suivies d'une etape 18 d'alignement entre le 
20 vecteur source x n et le vecteur cible y n , de maniere a former un appariement en- 
tre ces vecteurs obtenu par un algorithme classique d'alignement tempore! dy- 
namique dit « DTW » (en anglais : Dynamic Time Warping). 

L'etape 18 d'alignement est suivie d'une etape 20 de determination 
d'un modele representant de maniere ponderee les caracteristiques acoustiques 
25 communes du locuteur source et du locuteur cible sur un ensemble fini de com- 
posantes de modele. 

Dans le mode de realisation decrit, il s'agit d'un modele probabiliste 
des caracteristiques acoustiques du locuteur cible et du locuteur source, selon un 
modele note « GMM » de melanges de composantes formees de densites gaus- 
30 siennes. Les parametres des composantes sont estimes a partir des vecteurs 
source et cible contenant, pour chaque locuteur, le cepstre discret. 

De maniere classique, la densite de probabilite d'une variable aleatoire 
notee de maniere generale p(z), suivant un modele de melange de densites de 
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probabilites gaussiennes GMM s'ecrit mathematiquement de la maniere sui- 
vante : 

Q 

p(2)= ^a t xN(z 9 Mr?i) 

Q 

avec , = 1 , o<ai<1 

5 Dans cette formule, Q designe le nombre de composantes du modele, 

N(z ; (jj, Sj) est la densite de probabilite de la loi normale de moyenne \j\ et de ma- 
trice de covariance S| et les coefficients a\ sont les coefficients du melange. 

Ainsi, le coefficient ai correspond a la probabilite a priori que la varia- 
ble aleatoire z soit generee par la i eme composante gaussienne du melange. 
10 De maniere plus particuliere, I'etape 20 de determination du modele 

comporte une sous-etape 22 de modelisation de la densite jointe p(z) des vec- 
teurs source note x et cible note y, de sorte que : 

7=\ J J V 
[xn - y n J 

Uetape 20 comporte ensuite une sous-etape 24 d'estimation de para- 
15 metres GMM (a, p, S) de la densite p(z). Cette estimation peut etre realisee, par 
exemple, a I'aide d'un algorithme classique de type dit "EM" (Expectation - 
Maximisation), correspondant a une methode iterative conduisant a I'obtention 
d'un estimateur de maximum de vraisemblance entre les donnees des echantil- 
lons de parole et le modele de melange de gaussiennes. 
20 La determination des parametres initiaux du modele GMM est obtenue 

a Taide d'une technique classique de quantification vectorielle. 

Uetape 20 de determination de modele delivre ainsi les parametres 
d'un melange de densites gaussiennes representatifs des caracteristiques acous- 
tiques communes des echantillons vocaux du locuteur source et du locuteur ci- 
25 ble. 

Le modele ainsi defini forme done une representation ponderee de ca- 
racteristiques acoustiques d'enveloppe spectrale communes des echantillons 
vocaux du locuteur cible et du locuteur source sur Pensemble fini de composan- 
tes du modele. 



WO 2005/106853 



PCT/FR2005/000607 



10 



15 



20 



25 



9 

Le procede comporte ensuite une etape 30 de determination, a partir 
du modele et des echantillons vocaux, d'une fonction de transformation de 
I'enveloppe spectrale du signal du locuteur source vers le locuteur cible. 

Cette fonction de transformation est determinee a partir d'un estima- 
tes de la realisation des caracteristiques acoustiques du locuteur cible etant 
donne les caracteristiques acoustiques du locuteur source, forme dans le mode 
de realisation decrit, par I'esperance conditionneile. 

Pour cela, I'etape 30 comporte une sous-etape 32 de determination de 
I'esperance conditionneile des caracteristiques acoustiques du locuteur cible sa- 
chant les informations caracteristiques acoustiques du locuteur source. L'espe- 
ranee conditionneile est notee F(x) et est determinee a partir des formules sui- 
vantes : 



F(x)=E[y | x]= 2 h, (x)[m y t + S (E **) " 1 (x- M *) ] 



xx ; 
i 



i 



avec 



hi(x)=-g 



X XX 

a,N(x, ju 9 Z ) 
/ i 



J]aN(x,ju X ,?:^) 

M J J 



xx^ 



avec 



XX XV 



et ju \= 



Dans ces equations, hj(x) correspond a la probability a posteriori que 
le vecteur source x soit genere par la i eme composante du modele de melange de 
densites gaussiennes du modele, et le terme entre crochets correspond a un 
element de transformation determine a partir du modele. On rappelle que y desi- 
gne le vecteur cible. 

La determination de Tesperance conditionneile permet ainsi d'obtenir 
la fonction de transformation des caracteristiques d'enveloppe spectrale entre le 
locuteur source et le locuteur cible sous la forme d'une combinaison lineaire pon- 
deree d'elements de transformation. 

L'etape 30 comporte egalement une sous-etape 34 de determination 
d'une fonction de transformation de la frequence fondamentale par une mise a 
Techelle de la frequence fondamentale du locuteur source, sur la frequence fon- 
damentale du locuteur cible. Cette etape 34 est realisee de maniere classique a 
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un instant quelconque du procede a Tissue des sous-etapes 8X et 8Y 
d'estimation de la frequence fondamentale. 

En reference a la figure 1B, le procede de conversion comporte en- 
suite la transformation 2 d'un signal vocal a convertir prononce par le locuteur 
5 source, lequel signal a convertir peut etre different des signaux vocaux utilises 
precedemment. 

Cette transformation 2 debute par une etape d'analyse 36 realisee, 
dans le mode de realisation decrit, a I'aide d'une decomposition selon le modele 
HNM similaire a celles realisees dans les etapes 4X et 4Y decrites precedem- 
10 ment. Cette etape 36 permet de delivrer des informations d'enveloppe spectrale 
sous la forme de coefficients cepstraux, des informations de frequence fonda- 
mentale ainsi que des informations de phase et de frequence maximale de voi- 
sement. 

Cette etape 36 d'analyse est suivie d'une etape 38 de determination 
15 d'un indice de correspondance entre le vecteur a convertir et chaque composante 
du modele. 

Dans le mode de realisation decrit, chacun de ces indices correspond 
a la probability a posteriori de la realisation du vecteur a convertir par chacune 
des differentes composantes du modele, soit au terme hj(x). 
20 Le procede comporte ensuite une etape 40 de selection d'un nombre 

restreint de composantes du modele en fonction des indices de correspondance 
determines a I'etape precedente, lequel ensemble restreint est note S(x). 

Cette etape 40 de selection est mise en ceuvre par une procedure ite- 
rative permettant de retenir un ensemble minimal de composantes, ces compo- 
25 santes etant selectionnees tant que la somme cumulee de leurs indices de cor- 
respondance est inferieure a un seuil predetermine. 

En variante, cette etape de selection comprend la selection d'un nom- 
bre fixe de composantes dont les indices de correspondance sont les plus ele- 
ves. 

30 Dans le mode de realisation decrit, I'etape 40 de selection est suivie 

d'une etape 42 de normalisation des indices de correspondance des composan- 
tes selectionnees du modele. Cette normalisation est realisee par le rapport de 
chaque indice selectionne sur la somme de tous les indices selectionnes. 
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Avantageusement, le procede comporte ensuite une etape 43 de stoc- 
kage des composantes de modele selectionnees ainsi que des indices de cor- 
respondance normalises associes. 

Une telle etape 43 de memorisation est particulierement utile dans le 
5 cas ou Panalyse est realisee en temps differe par rapport au reste de la transfor- 
mation 2, qui permet de preparer efficacement une conversion ulterieure. 

Le procede comporte ensuite une etape 44 d'application partielle de la 
fonction de transformation de I'enveloppe spectrale par ('application des seuls 
elements de transformation correspondant aux composantes de modele selec- 
10 tionnees. Ces seuls elements de transformation selectionnes sont appliques aux 
frames du signal a convertir, afin de reduire le temps necessaire a la mise en 
oeuvre de cette transformation. 

Cette etape 44 d'application correspond a la resolution de I'equation 
suivante pour les seules composantes selectionnees de modele formant 
15 I'ensemble restant S(x), de sorte que 

F(x)= £ W/ (x)[ /M > ' + 2^(S^)- 1 (x.M X )] 

ieS(x) III I 

. x h(x) 
avec Wj (x)= — 

Ainsi, pour une trame donnee, avec p la dimension des vecteurs de 
20 donnees, Q le nombre total de composantes et N le nombre de composantes 
selectionnees, I'etape 44 d'application partielle de la fonction de transformation 
se limite a N (P 2 + 1) multiplications, qui se rajoutent aux Q (P 2 + 1) modifications 
permettant de determiner les indices de correspondance, contre deux fois 
Q(P 2 +1). En consequence, la reduction de complexity obtenue est au moins de 
25 I'ordre de Q/(Q+N). 

De plus, dans le cas ou le resultat des etapes 36 a 42 a ete memorise, 
grace a la realisation de I'etape 43, Tetape 44 d'application de la fonction de 
transformation se limite a N(P 2 +1) operations contre 2Q(P 2 +1), dans I'etat de la 
technique, de sorte que, pour cette etape 44, la reduction du temps de calcul est 
30 de I'ordre de 2Q/N. 
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La qualite de la transformation est cependant preservee par 
I'application des composantes presentant un indice de correspondance eleve 
avec le signal a convertir. 

Le procede comporte ensuite une etape 46 de transformation des ca- 
5 racteristiques de frequence fondamentale du signal vocal a convertir, a I'aide de 
la fonction de transformation par mise a I'echelle determinee a I'etape 34 et reali- 
see selon des techniques classiques. 

De maniere egalement classique, le procede de conversion comporte 
ensuite une etape 48 de synthese du signal de sortie realisee, dans Pexemple 
10 decrit, par une synthese de type HNM qui delivre directement le signal vocal 
converti a partir des informations d'enveloppe spectrale transformers a I'etape 44 
et des informations de frequence fondamentale delivrees par I'etape 46. Cette 
etape 48 utilise egalement des informations de phase et de frequence maximale 
de voisement delivrees par I'etape 36. 
15 Le procede de conversion de invention permet ainsi de realiser une 

conversion de haute qualite avec une faible complexity et done un gain de temps 
de calcul important. 

Sur la figure 2, on a represents un schema synoptique d'un systeme 
de conversion de voix mettant en oeuvre le procede decrit en reference aux figu- 
20 res 1Aet 1B. 

Ce systeme utilise en entree une base de donnees 50 d'echantillons 
vocaux prononces par le locuteur source et une base de donnees 52 contenant 
au moins les memes echantillons vocaux prononces par le locuteur cible. 

Ces deux bases de donnees sont utilisees par un module 54 de de- 
25 termination de fonctions de transformation de ca racteristiques acoustiques et du 
locuteur source en caracteristiques acoustiques du locuteur cible. 

Ce module 54 est adapte pour la mise en oeuvre de I'etape 1 telle que 
decrite en reference a la figure 1 et permet done la determination d'au moins une 
fonction de transformation de caracteristiques acoustiques et notamment la fonc- 
30 tion de transformation des caracteristiques d'enveloppe spectrale et la fonction 
de transformation de la frequence fondamentale. 

Notamment, le module 54 est adapte pour la determination de la fonc- 
tion de transformation de I'enveloppe spectrale a partir d'un modele representant 
de maniere ponderee des caracteristiques acoustiques communes des echantil- 
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Ions vocaux du locuteur cible et du iocuteur source, sur un ensemble fini de com- 
posantes de modeles. 

Le systeme de conversion de voix report en entree un signal vocal 60 
correspondant a un signal de parole prononce par le locuteur source et destine a 
5 etre convert! . 

Le signal 60 est introduit dans un module 62 d'analyse mettant en ceu- 
vre, par exemple une decomposition de type HNM permettant d'extraire des in- 
formations d'enveloppe spectrale du signal 60 sous la forme de coefficients ceps- 
traux et des informations de frequence fondamentale. Le module 62 delivre ega- 
10 lement des informations de phase et de frequence maximales de voisement ob- 
tenues par I'application du rnodele HNM. 

Le module 62 met done en ceuvre I'etape 36 du precede tel decrit pre- 
cedemment. 

Eventuellement, le module 62 est mis en oeuvre au prealable et les in- 
15 formations sont stockees pour etre utilisees ulterieurement. 

Le systeme comporte ensuite un module 64 de determination des indi- 
ces de correspondance entre le signal vocal a convertir 60 et chaque compo- 
sante du rnodele. A cet effet, le module 64 report les parametres du rnodele de- 
termine par le module 54. 
20 Le module 64 met done en oeuvre I'etape 38 du procede tel que decrit 

precedemment. 

Le systeme comprend ensuite un rnodele 65 de selection de compo- 
santes du rnodele mettant en oeuvre I'etape 40 de procede decrit precedemment 
et permettant la selection de composantes presentant un indice de correspon- 
25 dance traduisant une forte connexite avec le signal vocal a convertir. 

Avantageusement, ce module 65 realise egalement la normalisation 
des indices de correspondance des composantes selectionnees par rapport a 
leur moyenne en mettant en oeuvre I'etape 42. 

Le procede comporte ensuite un module 66 d'application partielle de la 
30 fonction de transformation de I'enveloppe spectrale determinee par le module 54, 
par Pappiication des seuls elements de transformation selectionnes par le module 
65 en fonction des indices de correspondance. 

Ainsi, ce module 66 est adapte pour la mise en oeuvre de I'etape 44 
d'application partielle de la fonction de transformation, de maniere a delivrer en 
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sortie, des informations acoustiques du locuteur source transformees par les 
seuls elements selectionnes de la fonction de transformation, soit par les compo- 
santes du modele presentant un indice de correspondance eleve, avec les tra- 
mes du signal a convertir 60. Ce module permet done une transformation rapide 
5 du signal vocal a convertir grace a I'application partielle de la fonction de trans- 
formation. 

La qualite de la transformation est preservee par la selection des com- 
posantes du modele presentant un indice eleve de correspondance avec le signal 
a convertir. 

1 o Le module 66 est egalement adapte pour realiser une transformation 

des caracteristiques de frequence fondamentale, realisee de maniere classique 
par I'application de la fonction de transformation par mise a I'echelle realisee se- 
lon I'etape 46. 

Le systeme comporte ensuite un module 68 de synthese recevant en 
15 entree, les informations d'enveloppe spectrale et de frequence fondamentale 
transformees et delivrees par le module 66 ainsi que des informations de phase 
et de frequence maximale de voisement delivrees par le module 62 d'analyse. 

Le module 68 met ainsi en oeuvre I'etape 46 du procede decrit en refe- 
rence a la figure 1 et delivre un signal 70, correspondant au signal vocal 60 du 
20 locuteur source mais dont les caracteristiques d'enveloppe spectrale et de fre- 
quence fondamentale, ont ete modifiees afin d'etre similaires a celles du locuteur 
cible. 

Le systeme decrit peut etre mis en oeuvre de diverses manieres et no- 
tamment a I'aide de programmes informatiques adaptes et relies a des moyens 
25 materiels d'acquisition sonore. 

Ce systeme peut egalement etre mis en oeuvre sur des bases de don- 
nees determinees afin de former des bases de donnees de signaux convertis 
prets a etre utilises. 

Notamment, ce systeme peut etre mis en oeuvre dans une premiere 
30 phase de fonctionnement afin de delivrer, pour une base de donnees de si- 
gnaux, des informations relatives aux composantes du modele selectionnees 
ainsi qu'a leurs indices de correspondance respectifs, ces informations etant 
alors memorisees. 
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Les modules 66 et 68 du systeme, sont mis en oeuvre ulterieurement a 
la demande, pour generer un signal vocal de synthese en utilisant les signaux 
vocaux a convertir et les informations relatives aux composantes selectionnees et 
a leurs indices de correspondance afin d'obtenir une reduction maximale du 

5 temps de calcul. 

En fonction de la complexity des signaux et de la qualite souhaitee, le 
procede de I'invention et le systeme correspondant peuvent egalement etre mis 
en oeuvre en temps reel. 

En variante, le procede de I'invention et le systeme correspondant sont 
10 adaptes pour la determination de plusieurs fonctions de transformation. Par 
exemple, une premiere et seconde fonctions sont determinees pour la transfor- 
mation respectivement des parametres d'enveloppe spectrale et des parametres 
de frequence fondamentale des frames a caractere voise et une troisieme fonc- 
tion est determinee pour la transformation des trames a caractere non voise. 
15 Dans un tel mode de realisation, il est done prevu une etape de sepa- 

ration, dans le signal vocal a convertir, des trames voisees et non voisees et une 
ou plusieurs etapes de transformation de chacun de ces ensembles de trames. 

Dans le cadre de I'invention, une seule ou plusieurs des fonctions de. 
transformation est appliquee partiellement de maniere a diminuer le temps de 
20 traitement. 

Par ailleurs, dans I'exemple decrit, la conversion de voix est realisee 
par transformation des caracteristiques d'enveloppe spectrale et des caracteristi- 
ques de frequence fondamentale de maniere separee, seule la fonction de trans- 
formation de I'enveloppe spectrale etant appliquee partiellement. En variante, 
25 plusieurs fonctions de transformation de differentes caracteristiques acoustiques 
et/ou de transformation simultanees de plusieurs caracteristiques acoustiques 
sont determinees et au moins Tune de ces fonctions de transformation est appli- 
quee partiellement. 

De maniere generate, le systeme est adapte pour la mise en oeuvre de 
30 toutes les etapes du procede decrit en reference aux figures 1 A et 1 B. 

Bien entendu, d'autres modes de realisation que ceux decrits, peuvent 
etre envisages. 

Notamment, les modeles HNM et GMM peuvent etre remplaces par 
d'autres techniques et modeles connus de I'homme de Tart. Par exemple, 
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I'analyse est realisee a I'aide de techniques dites LPC (Linear Predictive Co- 
ding), de modeles sinusoidaux ou MBE (Multi Band Excited), les parametres 
spectraux sont des parametres dits LSF (Line Spectrum Frequencies), ou encore 
des parametres lies aux formants ou a un signal glottique. En variante, le modele 
5 GMM est remplace par une quantification vectorielie floue (Fuzzy VQ.). 

En variante, I'estimateur mis en oeuvre lors de I'etape 30 peut etre un 
critere de maximum a posteriori, dit "MAP" et correspondant a la realisation du 
calcul de I'esperance uniquement pour le modele representant le mieux le couple 
de vecteurs source-cible. 

10 Dans une autre variante, la determination d'une fonction de 

transformation est realisee a I'aide d'une technique dite des moindres carres au 
lieu de I'estimation de la densite jointe decrite. 

Dans cette variante, la determination d'une fonction de transformation 
comprend la modelisation de la densite de probability des vecteurs source a 

15 I'aide d'un modele GMM puis la determination des parametres du modele a I'aide 
d'un algorithme EM. La modelisation prend ainsi en compte des segments de 
parole du locuteur source dont les correspondants prononces par le locuteur cible 
ne sont pas disponibles. 

La determination comprend ensuite la minimisation d'un critere des 

20 moindres carres entre parametres cible et source pour obtenir la fonction de 
transformation. II est a noter que I'estimateur de cette fonction s'exprime toujours 
de la meme maniere mais que les parametres sont estimes differemment et que 
des donnees supplementaires sont prises en compte. 



WO 2005/106853 PCT/FR2005/000607 

17 

REVINDICATIONS 

1 . Procede de conversion d ! un signal vocal (60) prononce par un locu- 
teur source en un signal vocal converti (70) dont les caracteristiques acoustiques 
ressemblent a cedes d'un locuteur cible, comprenant : 
5 - la determination (1) d'au moins une fonction de transformation de ca- 

racteristiques acoustiques du locuteur source en caracteristiques acoustiques 
proches de celles du locuteur cible, a partir d'echantillons vocaux des locuteurs 
source et cible ; et 

- la transformation (2) de caracteristiques acoustiques du signal vocal 
10 a convertir du locuteur source, par i'application de ladite au moins une fonction 

de transformation, 

caracterise en ce que ladite transformation (2) comprend une etape 
(44) duplication uniquement d'une partie determinee d'au moins une fonction de 
transformation sur ledit signal a convertir. 

15 2. Procede selon la revendication 1, caracterise en ce qu'au moins la 

determination (1) d'une fonction de transformation comprend une etape (20) de 
determination d f un modele representant de maniere ponderee des caracteristi- 
ques acoustiques communes des echantillons vocaux du locuteur cible et du lo- 
cuteur source sur un ensemble fini de composantes de modele, et en ce que la- 

20 dite transformation (2) comprend : 

- une etape (36) d'analyse du signal vocal a convertir, regroupe en 
trames pour obtenir, pour chaque trame d'echantillons des informations relatives 
aux caracteristiques acoustiques ; 

- une etape (38) de determination d'un indice de correspondance entre 
25 les trames a convertir et chaque composante dudit modele ; et 

- une etape (40) de selection d'une partie determinee desdites compo- 
santes dudit modele en fonction desdits indices de correspondance, 

ladite etape (44) d'application uniquement d'une partie determinee 
d'au moins une fonction de transformation comprenant I'application auxdites tra- 
30 mes a convertir de la seule partie de ladite au moins une fonction de transforma- 
tion correspondant auxdites composantes du modele selectionnees. 

3. Procede selon la revendication 2, caracterise en ce qu'il comporte 
en outre une etape (42) de normalisation de chacun desdits indices de corres- 
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pondance des composantes selectionnees par rapport a la somme de tous les 
indices de correspondance des composantes selectionnees. 

4. Procede selon Tune quelconque des revendications 2 et 3, caracte- 
rise en ce qu'il comporte en outre une etape (43) de memorisation desdits indices 

5 de correspondance et de ladite partie determinee desdites composantes de mo- 
dele, realisee avant ladite etape (44) de transformation, laquelle est retardee 
dans le temps. 

5. Procede selon Tune quelconque des revendications 2 a 4, caracteri- 
se en ce que ladite determination (1) de ladite au moins une fonction de trans- 

10 formation comprend : 

- une etape (4X, 4Y) d'analyse des echantillons vocaux des locuteurs 
source et cible, regroupes en trame pour obtenir des caracteristiques acoustiques 
pour chaque trame d'echantillons d'un locuteur ; 

- une etape (18) d'alignement temporel des caracteristiques acousti- 
15 ques du locuteur source avec les caracteristiques acoustiques du locuteur cible, 

cette etape (18) etant realisee avant ladite etape (20) de determination d'un mo- 
dele. 

6. Procede selon Tune quelconque des revendications 2 a 4, caracteri- 
se en ce que ladite etape (20) de determination d'un modele correspond a la 

20 determination d'un modele de melange de densites de probabilites gaussiennes. 

.7. Procede selon la revendication 6, caracterise en ce que ladite etape 
de determination (20) d'un modele comprend : 

- une sous-etape (22) de determination d'un modele correspondant a 
un melange de densites de probabilites gaussiennes, et 

25 - une sous-etape (24) d'estimation des parametres du melange de 

densites de probabilites gaussiennes a partir de I'estimation du maximum de 
vraisemblance entre les caracteristiques acoustiques des echantillons des locu- 
teurs source et cible et le modele. 

8. Procede selon I'une quelconque des revendications 1 a 7, caracteri- 

30 se en ce que ladite determination (1) d'au moins une fonction de transformation 
est realisee a partir d'un estimateur de la realisation des caracteristiques acousti- 
ques du locuteur cible sachant les caracteristiques acoustiques du locuteur 
source. 
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9. Procede selon la revendication 8, caracterise en ce que ledit estima- 
tes est forme de I'esperance conditionnelle de la realisation des caracteristiques 
acoustiques du locuteur cible sachant la realisation des caracteristiques acousti- 
ques du locuteur source. 
5 10. Procede selon Tune quelconque des revendications 1 a 9, caracte- 

rise en ce qu'il comporte en outre une etape (48) de synthese permettant de for- 
mer un signal vocal converti a partir desdites informations acoustiques transfor- 
mees. 

11. Systeme de conversion d'un signal vocal (60) prononce par un lo- 
10 cuteur source en un signal vocal converti (70) dont les caracteristiques acousti- 
ques ressemblent a celles d'un locuteur cible, comprenant : 

- des moyens (56) de determination d'au moins une fonction de trans- 
formation des caracteristiques acoustiques du locuteur source en caracteristiques 
acoustiques proches de celles du locuteur cible, a partir d'echantillons vocaux 

15 des locuteurs source et cible ; et 

- des moyens (66) de transformation des caracteristiques acoustiques 
du signal vocal a convertir (60) du locuteur source par I'application de ladite au 
moins une fonction de transformation, 

caracterise en ce que lesdits moyens (66) de transformation sont 
20 adaptes pour I'application uniquement d'une partie determinee d'au moins une 
fonction de transformation sur ledit signal a convertir (60). 

12. Systeme selon la revendication 11, caracterise en ce que lesdits 
moyens (54) de determination sont adaptes pour la determination d'au moins une 
fonction de transformation a I'aide d'un modele representant de maniere ponde- 

25 ree des caracteristiques acoustiques communes des echantillons vocaux des 
locuteurs source et cible sur un ensemble fini de composantes, et en ce qu'il 
comporte : 

- des moyens (62) d'analyse dudit signal a convertir (60), regroupe en 
frames, pour obtenir, pour chaque trame d'echantillons, des informations relatives 

30 aux caracteristiques acoustiques ; 

- des moyens (64) de determination d'un indice de correspondance en- 
tre les trames a convertir et chaque composante dudit modele ; et 

- des moyens (65) de selection d'une partie determinee desdites com- 
posantes dudit modele en fonction desdits indices de correspondance, 
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lesdits moyens (66) d'application etant adaptes pour appliquer uni- 
quement une partie determinee de ladite au moins une fonction de transformation 
correspondant auxdites composantes du modele selectionnees. 
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